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摘 要 : [目的 /意义 ] 视频 内 容 正在 影响 着 我 国 大 量 人 口 的 信息 生活 ,视频 语义 的 良好 表示 是 推动 当前 视频 内 容 研 究 和 
视频 应 用 服务 向 前 发 展 的 关键 基础 。 现 有 的 视频 语义 表示 方法 存在 事件 语义 表示 角度 和 粒度 划分 方式 单一 、 缺 
少 灵 活 的 对 象 语义 变化 机 制 的 问题 ,因此 探究 更 有 效 的 视频 语义 表示 方法 具有 重要 意义 。 [ 方法 /过 程 ] 提出 面 
向 事件 的 视频 语义 表示 方法 。 此 方法 考虑 人 的 双向 认 知 过 程 ,可 以 根据 不 同 用 户 背 景 和 需求 从 不 同 角度 解读 和 


生成 事件 语义 ,并 定义 相应 的 语义 对 象 和 角色 的 变化 机 制 。[ 


结果 /结论 ] 面向 事件 的 视频 语义 表示 方法 具有 完整 


的 语义 表示 框架 ,支持 多 角度 的 事件 语义 表示 ,可 以 灵活 地 进行 属性 级 、 对 象 级 和 事件 级 的 语义 拓展 ,能 够 表示 更 


二 一 丰富 的 视频 语义 。 
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CD 短视 频 、 在 线 网 课 . 手 机 直播 .视频 博客 等 基于 视 
频 风 介 的 内 容 正在 影响 我 国 大 量 人 口 的 信息 生活 "1。 
梢 绕 于 电视 时 代 和 PC 时 代 , 移 动 互联 网 时 代 的 视频 
内 容 的 消费 需求 和 相关 研究 正 变 得 越 来 越 精细 化 。 视 
师 疯 容 研 究 最 初 只 涉及 视频 的 外 部 标注 信息 ,之 后 开 
始 关注 视频 中 的 颜色 ,运动 轨迹 等 底层 特征 ,而 当下 的 
重 起 则 是 基于 视频 语义 特征 的 研究 和 应 用 。 视 频数 据 
挖 罚 相关 研究 需要 良好 的 视频 语义 模型 作为 建 模 基 
础 ,图 书馆 视频 资源 的 高 效 组 织 和 价值 发 挥 有 赖 于 合 
适 的 视频 语义 表示 框架 ”-” ,新 型 检索 和 推荐 系统 需 
要 考虑 视频 语义 才能 从 本 质 上 提升 视频 内 容 的 分 发 效 
率 。 

良好 的 视频 语义 表示 方法 是 上 述 研究 和 应 用 中 的 
基础 关键 。 随 着 视频 分 析 技术 的 发 展 和 用 户 需 求 的 精 
细 化 ,视频 语义 表示 研究 不 仅 需要 有 效 地 包含 语义 对 
象 和 表示 事件 语义 ,也 需要 关注 视频 事件 语义 结构 的 
设计 、 事 件 语义 的 可 扩展 性 及 相应 的 对 象 语义 变化 机 


制 。 


现 有 研究 中 的 视频 语义 表示 方法 虽然 具有 一 定 的 
语义 表示 能 力 , 但 都 存在 事件 语义 表示 角度 和 粒度 划 
分 方式 单一 、 缺 少 灵 活 的 对 象 语义 变化 机 制 等 问题 。 

基于 当前 研究 的 现状 ,本 文 提出 面向 事件 的 视频 
语义 表示 方法 ,该 方法 遵循 自 底 向 上 的 语义 描述 过 程 ， 
充分 考虑 用 户 的 双向 认 知 过 程 ”, 旨 在 提供 支持 事件 
语义 的 多 角度 表示 及 相应 的 多 种 粒度 划分 方式 的 视频 
语义 表示 方法 。 以 该 研究 目的 为 核心 ,本 文 首先 将 会 
总 结 视 频 语义 表示 方法 的 研究 现状 和 不 足 之 处 ;然后 ， 
剖析 当前 的 视频 语义 表示 工作 中 踊 待 解决 的 几 个 关键 
问题 ;进而 具体 定义 面向 事件 的 视频 语义 表示 方法 ,并 
论述 本 文 方法 对 关键 问题 的 解决 ,再 以 篮球 比赛 视频 
片段 举例 说 明 方 法 的 有 效 性 ,并 与 现 有 相关 方法 比较 ， 
说 明 本 文 方法 的 创新 性 ;最 后 总 结 全 文 ,提出 围绕 该 工 
作 的 未 来 研究 方向 。 


2 相关 研究 


早期 的 视频 语义 表示 采用 的 是 基于 标注 的 方法 ， 
其 主要 思想 是 将 自然 文本 或 结构 数据 组 成 的 标注 信息 
全 加 在 视频 流 中 对 应 的 视频 序列 上 。 这 种 方法 可 表示 
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的 语义 对 象 有 限 , 且 标注 之 间 无 法 互相 关联 ,难以 刻画 
视频 中 复杂 的 语义 关系 。 它 主要 用 于 满足 简单 的 基于 
关键 字 和 属性 的 视频 查询 需求 。 随 着 视频 资源 的 丰富 
和 相关 研究 的 发 展 ,研究 人 员 和 用 户 对 视频 语义 表示 
的 需求 也 变 得 更 加 复杂 。 在 视频 数据 挖 气 领 域 ,视频 
概念 检测 “视频 分 类 、 内 容 结构 分 析 ”, 主 题 挖 
据 ” .事件 挖 抉 """ 等 方面 的 研究 都 需要 更 有 效 的 语 
义 表示 方法 作为 其 前 期 建 模 基础 ,并 为 研究 结果 提供 
可 解释 性 。 在 日 益 增长 的 新 需求 下 ,一 方面 ,当前 的 视 
频 语义 表示 相关 研究 已 大 多 基于 视频 语义 数据 模型 ， 
是 一 种 分 层 模型 ,底层 和 顶层 分 别 对 应 原始 视频 数据 
流 和 视频 语义 信息 。 顶 层 的 语义 信息 是 通过 对 原始 视 
频数 据 的 语义 抽象 和 映射 得 到 的 ,基于 映射 机 制 的 不 
同 * 模 型 可 能 具有 不 同 种 类 和 数量 的 中 间 层 ,例如 语义 
对 黎 层 ,事件 场景 层 等 。 另 一 方面 ,自从 领域 事件 ” 
的 概念 提出 以 来 ,基于 事件 的 语义 表示 也 成 为 研究 者 
作对 视频 语义 表示 研究 的 共识 。 事 件 是 由 一 个 或 多 个 


序列 节点 按时 序 包 含 关 系 形成 树 结 构 。 但 该 模型 忽略 
了 语义 对 象 的 大 部 分 底层 特征 ,用 户 无 法 对 对 象 语义 
进行 自 顶 向 下 地 扩展 和 补 全 。 而 VIDEX 方法 "中 虽 
然 集成 了 视频 底层 特征 ,但 其 对 高 层 语义 的 结构 设计 
比较 简单 ,无 法 表示 语义 对 象 和 事件 间 的 复杂 关联 。 
鲍 泓 等 提出 了 分 层 语义 联想 模型 '” ,模型 中 使 用 了 概 
念 层次 树 表 示 抽 象 概念 间 的 继承 关系 ,能 够 有 效 地 表 
示 较 为 复杂 的 抽象 概念 ,但 未 考虑 事件 语义 结构 的 层 
次 性 。 由 Y 了 .Wang 提出 的 THVDMC 在 概念 层 区 分 了 
对 象 和 事件 ,预定 义 了 一 些 事件 语义 结构 ,能 够 表示 不 
同 粒度 的 事件 间 的 关联 。 但 现 有 的 表示 方法 都 存在 事 
件 语义 表示 角度 和 粒度 划分 方式 单一 、 缺 少 灵 活 的 对 
象 语义 变化 机 制 的 问题 。 问 题 具体 表现 为 :中 事件 语 
义 表示 角度 和 粒度 划分 方式 单一 。 现 有 表示 方法 对 事 
件 的 解读 角度 都 是 唯一 的 ,而 不 同 用 户 群 体 对 视频 语 
义 的 理解 并 不 是 统一 的 。 以 篮球 比赛 视频 为 例 ,教练 
可 能 从 全 局 战术 角度 来 解读 ,普通 球迷 可 能 从 单一 球 


证 鸡 对 象 的 特征 ,关系 和 背景 信息 等 形成 的 较为 完整 
和 综合 的 语义 信息 单元 。 此 后 的 视频 语义 表示 相关 研 
完 权 然 有 不 同 的 侧重 ,但 基本 上 都 体现 了 以 事件 为 核 
X 河 义 的 分 层 模型 的 思想 ,本 文 的 方法 亦 是 以 此 为 基 
ME 
“虽然 有 了 共同 的 思想 基础 ,但 受制 于 视频 分 析 技 
术 求 平 或 研究 者 所 在 领域 的 限制 ,许多 相关 研究 对 高 
属 光 义 的 表示 较为 局 限 。 在 王 昊 然 等 提出 的 基于 图 模 
型 疯 足 球 视频 语义 表示 方法 "中 ,事件 单元 是 由 镜头 
和 章 频 特征 组 成 的 。 张 静 等 则 以 行人 运动 特征 来 定义 
j 汪 的 事件 模板 ,将 运动 轨迹 映射 为 事件 语义 9 。 刘 
晓 瑞 提出 了 安防 视频 的 知识 元 模型 "” ,将 安防 视频 内 
容 映 射 到 视频 基础 信息 .载体 对 象 、 安 防 事件 3 个 方 
面 。 谢 潇 等 定义 了 地 理 视频 语义 的 多 层次 结构 ,将 
地 理 视频 语义 抽象 为 相互 关联 的 特征 域 .行为 过 程 域 、 
事件 域 3 个 层次 。 以 上 研究 多 集中 于 安防 地理, 交通 
等 领域 ,充分 考虑 了 视频 内 容 的 底层 特征 和 时 空 信息 ， 
并 结合 了 专业 领域 知识 ,但 缺乏 对 高 层 语义 的 支持 ,对 
事件 语义 的 表示 较为 初级 ,也 不 具备 通用 性 。 因 此 本 
文 的 方法 将 重点 关注 视频 中 较为 复杂 的 事件 语义 的 表 
示 ,并 尽量 实现 方法 的 通用 性 。 
研究 者 们 尝试 提出 了 多 种 视频 语义 表示 方法 ,由 
在 涵盖 较为 完整 的 视频 底层 特征 信息 ,同时 准确 表达 
视频 的 高 层 语义 信息 。 由 S，Adali 等 提出 的 AVIS 
是 较 早 引入 高 层 语义 信息 的 视频 语义 模型 , AVIS 中 明 
确定 义 了 视频 对 象 .事件 .角色 等 语义 概念 ,并 将 视频 


员 的 表现 来 解读 。 事 件 语义 的 粒度 划分 也 与 解读 角度 
有 关 ,教练 对 整 场 比赛 视频 的 事件 粒度 划分 可 能 是 依 
据 整体 战术 的 博弈 过 程 来 划分 ,普通 球迷 角度 的 事件 
粒度 可 能 是 依据 单一 球员 的 得 分 .犯规 等 具体 行为 来 
划分 。 书 缺少 灵活 的 对 象 语义 变化 机 制 。 现 有 方法 中 
的 语义 对 象 和 参与 事件 的 角色 通常 是 静态 的 ,无 法 很 
好 地 支持 同一 个 语义 对 象 在 不 同 解读 角度 下 的 意义 变 
化 。 对 于 可 能 参与 不 同 粒度 事件 的 语义 对 象 ,其 对 应 
的 实例 化 角色 的 数量 和 意义 的 变化 也 需要 具体 的 中 间 
机 制 , 现 有 方法 对 这 类 语义 的 变化 未 能 提供 良好 的 文 
持 。 因 此 本 文 提 出 面向 事件 的 视频 语义 表示 方法 , 关 
注 事 件 语义 的 多 角度 表示 及 相应 的 多 种 粒度 划分 方 
式 , 并 提供 灵活 的 对 象 语义 变化 机 制 。 


3 ”视频 语义 表示 的 关键 问题 


3.1 自 底 向 上 的 描述 过 程 

人 对 视频 语义 的 认识 是 一 个 从 底层 物理 特征 到 高 
层 语义 信息 的 自 底 向 上 的 描述 过 程 。 一 个 符合 实际 认 
知 过 程 的 视频 语义 表示 方法 要 能 够 有 效 且 灵活 地 支持 
自 底 向 上 的 描述 过 程 。 语 义 对 象 的 表示 是 自 底 向 上 的 
描述 过 程 的 基础 ,在 表示 底层 的 语义 对 象 时 , 需 着 重 刻 
画 语义 对 象 与 具体 事件 无 关 的 特征 ,以 保证 同一 个 语 
义 对 象 能 够 在 不 同事 件 中 被 重复 调用 。 

在 自 底 向 上 的 描述 过 程 中 ,表示 高 层 的 事件 语义 
时 ,同一 个 语义 对 象 在 参与 不 同事 件 时 会 具有 不 同 的 
语义 信息 。 如 篮球 比赛 视频 中 的 “ 某 运动 员 ” 对象 就 
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可 能 分 别 以 “进攻 者 "和 “防守 者 "的 语义 参与 “ 持 球 进 
攻 "* 事 件 “ 篮 下 防守 "事件 ,因此 可 以 引入 专门 表示 语 
义 对 象 的 事件 相关 特征 的 中 间 有 角色。 
3.2， 视频 事件 的 多 角度 解读 

事件 语义 的 表示 是 视频 语义 表示 的 核心 , 现 有 的 
视频 语义 表示 方法 缺少 对 事件 的 多 角度 解读 的 关注 ， 
它们 忽略 了 人 的 认 知 行为 的 双向 性 特点 。 具 体 而 言 ， 
在 自 下 而 上 的 描述 过 程 中 ,人 们 可 能 会 选择 关注 不 同 的 
语义 对 象 或 是 同一 语义 对 象 的 不 同方 面 ,因此 可 能 会 解 
读 出 不 同 的 事件 语义 及 相应 的 事件 结构 。 例 如 在 观看 
同一 段 复 球赛 视频 时 ,有 的 用 户 关注 比分 信息 ,有 的 用 
户 关注 某 个 球星 的 行为 ,有 的 用 户 关注 裁判 的 行为 ,有 
的 用 户 关注 球 队 的 战术 配合 ,这 些 不 同 的 关注 点 都 可 能 
是 解读 视频 语义 和 划分 事件 结构 的 依据 ( 见 图 1)。 因 
此 5 如 视频 语义 表示 中 支持 事件 的 多 角度 解读 是 非常 重 
要 的 ,语义 表示 方法 中 要 能 够 表示 各 个 角度 的 语义 信 
部 济 支 持 不 同 角度 下 的 事件 结构 划分 方式 。 


ss 
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er ; 

i > 
视频 数据 流 

2 图 1 基于 不 同 的 关注 点 划分 事件 结构 


3; 卫 视频 事件 的 粒度 划分 
拍 粒 度 是 指 视 频 事 件 被 表示 时 的 语义 片段 的 大 小 。 
在 上 一 个 关键 问题 中 提 到 了 事件 解读 角度 的 选取 会 影 
响 事 件 结构 的 划分 ,事件 结构 的 划分 主要 体现 为 事件 
的 粒度 划分 。 事 件 的 粒度 划分 既 涉及 事件 之 间 的 组 
合 , 也 涉及 相关 事件 角色 的 语义 变化 。 事 件 之 间 的 组 
合 是 指 多 个 粒度 较 小 .层次 较 低 .语义 单一 的 连续 事 
件 , 可 以 作为 子 事件 组 合成 粒度 较 大 、 层 次 较 高 .语义 
丰富 的 复合 事件 。 比 如 一 段 监 控 视频 中 记录 的 连续 的 
“追逐 “制服 ”押送 ”事件 可 以 组 合成 更 大 粒度 的 
“ 抓 捕 "事件 。 在 事件 组 合 过 程 中 ,需要 注意 的 是 , 子 
事件 中 涉及 的 语义 对 象 在 复合 事件 中 会 发 生 数量 和 语 
义 上 的 变化 ,语义 表示 方法 要 能 够 支持 这 种 变化 ,比如 
子 事件 “追逐 ”中 的 “被 追逐 者 ”角色 在 复合 事件 “ 抓 
捕 ” 中 就 可 演变 为 "犯人 "角色 。 
3.4 自 顶 向 下 的 语义 补 全 
语义 补 全 是 指 在 已 经 形成 的 语义 表示 框架 中 填充 


更 多 语义 信息 。 在 自 底 向 上 的 描述 过 程 中 ,主要 的 认 
知 工作 是 判断 和 确定 语义 对 象 及 事件 的 存在 和 类 型 。 
而 一 旦 确定 了 语义 描述 框架 ,通常 就 需要 根据 不 同 的 
需求 ,为 框架 中 的 语义 对 象 或 事件 填充 更 多 的 语义 信 
息 , 这 些 信 息 可 以 来 自 底层 特征 、 背 景 信息 等 。 例 如 ， 
在 一 段 篮 球 比 赛 视频 中 , 先 自 底 向 上 地 根据 运动 员 的 
时 空 关 联 等 语义 信息 确定 了 “得 分 "事件 ,并 赋予 该 事 
件 中 的 语义 对 象 “ 某 运动 员 " 在 该 事件 中 的 角色 为 “得 
分 手 ”。 此 时 ,除了 “ 某 运 动员 ”固有 的 事件 无 关 的 属 
性 外 ,可 能 还 需要 补 全 “得 分 手 ” 角 色 的 更 多 语义 信 
息 , 比 如 "得 分 方式 "是 "投篮 ”上 得 "还 是 “罚球 ”。 
3.5 对 可 扩展 性 和 检索 需求 的 支持 

如 前 所 述 ,不同 用 户 可 能 对 同一 视频 语义 有 不 同 
的 理解 ,因此 良好 的 视频 语义 表示 方法 要 具有 灵活 的 
可 扩展 性 ,要 能 够 基于 用 户 的 不 同 关注 点 可 扩展 地 生 
成 语义 ,事件 中 涉及 的 对 象 和 角色 的 语义 也 要 能 够 随 
事件 的 语义 变化 进行 扩展 。 

对 检索 需求 的 支持 是 视频 语义 表示 方法 在 应 用 环 
节 中 发 挥 作用 的 重要 能 力 ,在 当前 丰富 的 视频 内 容 和 
复杂 的 用 户 需 求 背 景 下 , 现 有 的 基于 关键 字 或 底层 特 
征 的 检索 方法 无 法 完全 满足 用 户 需 求 , 而 基于 视频 语 
义 的 检索 方法 是 当前 视频 检索 领域 的 研究 和 发 展 的 关 
键 , 因 此 在 视频 语义 表 方 法 中 考虑 对 多 样 化 检索 的 文 
持 是 必要 的 。 


4 视频 语义 表示 方法 


为 解决 上 述 视频 语义 表示 中 的 关键 问题 ,本 文 提 
出 了 面向 事件 的 视频 语义 表示 方法 。 本 节 将 首先 定义 
语义 表示 方法 框架 ,并 论述 该 方法 解决 上 述 关键 问题 
的 能 力 ,再 使 用 篮球 比赛 视频 片段 进行 应 用 实例 描述 ， 
最 后 对 本 文 的 方法 与 现 有 相关 方法 进行 比较 ,说 明 本 
文 方法 的 创新 性 。 
4.1 面向 事件 的 视频 语义 表示 方法 

本 文 提出 了 面向 事件 的 视频 语义 表示 方法 ,该 方 
法 的 语义 表示 的 逻辑 框架 如 图 2 所 示 ,语义 表示 框架 
中 刻画 了 语义 对 象 (Object) 、 角 色 ( Role) 和 事件 (E- 
vent) 三 类 主体 以 及 它们 之 间 的 关联 方式 。 语 义 对 象 
是 该 方法 中 语义 表示 的 基础 ,角色 由 语义 对 象 实例 化 
得 到 ,并 参与 具体 事件 的 语义 构建 。 对 三 类 主体 的 具 
体 定义 如 下 : 

(1) 语 义 对 象 (Object) :语义 对 象 是 通过 自动 分 析 
视频 底层 特征 得 到 的 具有 初级 语义 的 对 象 。 所 有 语义 
对 象 都 是 独立 于 具体 事件 而 存在 的 ,使 用 元 组 将 语义 


101 


国定 情报 三 作 


第 64 卷 第 10 期 2020 年 5 月 


ChinaXiv 合 作 期 刊 


(focus:2 人 focus:n 


semantic 
relation 


( 门 [| Event 
GN E Attribute 
PE 图 2 面向 事件 的 视频 语义 表示 框架 


| Object/Role 


一 一 Instantiation 


索 表 示 为 Object = {oid，OT，Attrs| ,其 中 

a 二 

en 由 oid 是 语义 对 象 的 唯一 标识 符 。 

QS OT= |t;,t| 是 语义 对 象 在 视频 中 出 现 的 时 间 


> > Ik: Vs Jes v | 是 可 扩展 的 属性 键 
值 对 。 其 中 包含 该 对 象 的 底层 特征 ,如 颜色 ,运动 轨迹 
等 St 包含 其 他 事件 无 关 的 信息 ,如 对 象 的 命名 等 。 可 
根 儿 需要 扩展 或 补 全 该 对 象 的 其 他 与 事件 无 关 的 信 
自学 


(2) 角 色 (Role): 角 色 是 由 语义 对 象 在 具体 事件 
中 实例 化 得 到 的 。 角 色 的 语义 信息 是 与 具体 事件 相关 
的 ,使 用 元 组 将 角色 表示 为 Role = | rid，semrole，RT， 
Attrs| ,其 中 : 

GD rid 是 角色 的 唯一 标识 符 。 

@ semrole 是 角色 的 语义 标签 ,表示 角色 在 事件 中 
扮演 的 语义 角色 类 型 。 比 如 “ 抓 捕 ”事件 中 的 “警察 ” 
“罪犯 ”。 


@ RT = |t,, | 是 该 角色 在 视频 中 的 时 间 区 间 的 
起 止 时 间 记 录 。 
@ Attrs = |ki: wm，…, ks: v,| 是 可 扩展 的 属性 键 


值 对 。 其 中 的 属性 是 结合 相关 语义 对 象 的 特征 与 其 参 
与 的 事件 语义 得 到 的 角色 信息 ,可 根据 需要 进行 扩展 
或 补 全 与 事件 相关 的 其 他 信息 。 


(3) 事 件 (Event) :事件 是 综合 一 个 或 多 个 有 意义 
的 角色 以 及 角色 之 间 的 语义 关系 形成 的 高 级 语义 块 ， 
视频 事件 语义 的 生成 与 用 户 对 视频 内 容 的 关注 角度 直 
接 相关 。 使 用 元 组 将 事件 表示 为 Event = | eid, name， 
focus， ET，Attrs| ,其 中 

QD eid 是 事件 的 唯一 标识 符 。 

Q@@ name 是 事件 名 称 。 

@) focus 是 生成 该 事件 语义 时 所 基于 的 关注 角度 。 

由 ET = |t;, tl 是 事件 在 视频 中 时 间 区 间 的 起 目 
时 间 记 录 。 非 复合 事件 的 时 间 区 间 由 事件 角色 的 时 间 
区 间 取 并 集 得 到 ,复合 时 间 的 时 间 区 间 由 其 子 事件 时 
间 的 区 间 取 并 集 得 到 。 

@) Attrs = {ki: wm，…，k: Vv,| 是 可 扩展 的 属性 键 
值 对 。 可 以 包含 事件 的 语义 时 间 信 息 、 语 义 位 置信 息 
等 。 可 根据 需要 进行 扩展 或 补 全 。 

以 上 定义 的 三 类 主体 之 间 互 相关 联 , 共 同 构 成 完 
整 的 语义 表示 框架 ,从 而 表示 丰富 的 视频 语义 。 主 体 
之 间 的 关联 方式 的 具体 定义 如 下 : 

(1) 语 义 对 象 间 关 联 (Object-Object Relation ) :本 
文 的 方法 着 重 刻画 语义 对 象 之 间 的 事件 无 关 的 时 空 关 
联 (Spatio-Temporal Relation) 。 时 间 关 联 主要 是 指 两 个 
语义 对 象 在 时 间 区 间 内 的 相对 位 置 ,如 在 相同 的 时 间 
区 间 出 现 (equal) .在 之 前 的 时 间 区 间 出 现 (before) ,在 
之 后 的 时 间 区 间 出 现 (after) 等 。 空 间 关 联 包 括 方向 关 
联 和 拓扑 关联 ,方向 关联 包括 东 (east) 、 南 (south)、 上 
(above) 、 下 (below) 等 ,拓扑 关联 包括 覆盖 (cover) \ 接 
触 (touch) 等 。 关 于 时 空 关联 的 详细 定义 见 "”。 语 
义 对 象 间 的 时 空 关联 具有 有 向 性 ,在 图 形 框 架 中 表示 
为 一 系列 的 有 向 边 。 使 用 元 组 将 语义 对 象 间 的 时 空 关 
联 表 示 为 STRel = |type，oidl oid21 ,其 中 : 

QD type 是 时 空 关 联 的 类 型 ,比如 "覆盖 (cover) ”。 
@) oidl 是 指 有 向 关系 的 起 点 语义 对 象 的 标识 符 。 
G@) oid2 是 指 有 向 关系 的 终点 语义 对 象 的 标识 符 。 
(2) 语 义 对 象 - 角色 关联 (Object-Role Relation ) : 
有 件 无 关 的 底层 语义 对 象 在 具体 事件 中 实例 化 为 事件 
中 的 角色 ,语义 对 象 和 角色 间 的 关联 称 为 实例 化 关联 
(Instantiation Relation ) 。 在 这 种 关联 中 ,允许 语义 对 象 
和 语义 角色 之 间 存 在 一 对 一 、 一 对 多 和 多 对 一 的 数量 
关系 。 使 用 元 组 将 实例 化 关联 表示 为 msRel = | 0s， 


ihul 


Rs ， eid | ,其 中 : 

(QD 0s = |oidl，…，oidn} 是 参与 实例 化 的 语义 对 
象 的 标识 符 的 集合 。 

@) Rs = |ridl,…, ridn| 是 参与 实例 化 的 角色 的 
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标识 符 的 集合 。 

(3) eid 是 指 实例 化 过 程 所 面向 的 事件 的 标识 符 。 

(3) 角色 间 关 联 ( Role-Role Relation ) :角色 的 语义 
信息 是 与 具体 事件 相关 的 ,而 角色 的 底层 基础 是 语义 
对 象 ,所 以 角色 之 间 的 关联 是 基于 对 象 间 的 时 空 关 联 
并 结合 具体 事件 的 语义 而 形成 的 语义 关联 (Semantic 
Relation) ,角色 间 的 语义 关联 也 具有 有 向 性 。 使 用 元 
组 将 角色 间 的 语义 关联 表示 为 SemRel = | type，ridl ， 
rid2| ,其 中 : 

QD type 是 语义 关联 的 类 型 。 该 类 型 与 具体 的 事 
件 语 义 相 关 。 


@ ridl 是 指 有 向 关系 的 起 点 角色 的 标识 符 。 

@) rid2 是 指 有 向 关系 的 终点 角色 的 标识 符 。 
这 4) 事 件 间 关联 (Event-Event Relation ) :本 文 的 方 
法 乱 重 关注 事件 间 的 组 合 关联 (Composition Relation ) ， 
使 用 元 组 将 事件 间 的 组 合 关联 表示 为 ComRel = | Eid， 
2 


下 


地 


CJ(5) 事件- 角色 关联 (Event-Role Relation) :事件 
所 丰 角色 ,使 用 元 组 将 事件 和 角色 之 间 的 关联 (Owing 
Rlalion) 表示 为 OwReal = jeid，Roles| ,其 中 
之 O sid 是 事件 的 标识 符 。 

PSO) Roles = | ridl，…， ridn| 是 事件 拥有 的 角色 标 
识 竹 的 集合 。 

-三 以 上 是 本 文 提出 的 视频 语义 表示 方法 的 框架 定 
义 @) 本 文 的 方法 关注 对 事件 语义 的 多 角度 表示 及 相应 
的 多 种 粒度 划分 方式 的 支持 ,在 以 上 的 定义 中 ,事件 的 
关注 角度 属性 为 事件 语义 的 多 角度 拓展 提供 了 基础 ， 
多 种 事件 粒度 的 划分 方式 是 通过 每 个 不 同 角度 下 的 事 
件 的 时 间 区 间 划 分 和 事件 间 的 组 合 关联 实现 的 。 为 疼 
明 上 述 实现 过 程 ,定义 可 扩展 的 对 象 T= {Tl1, T2,…， 
Tn 。 其 中 Tl = |focusl，ETs| 表示 在 关注 角度 为 fo- 
cusl 时 的 事件 粒度 划分 方式 ,ETs = | ETI1，FET2 ，…， 
ETn| 代表 当前 划分 方式 下 的 复合 事件 和 非 复合 事件 
的 时 间 区 间 集 合 。 现 有 方法 只 支持 单一 角度 下 的 单一 
划分 方式 ,而 在 本 文 方法 中 ,对 象 T 的 可 扩展 性 即 代表 
事件 语义 角度 和 事件 粒度 划分 方式 的 多 样 性 。 

从 图 3 可 以 看 出 ,以 某 自 视频 为 例 ,可 将 其 多 角度 
的 事件 语义 表示 和 多 种 事件 粒度 划分 过 程 形式 化 为 对 
象 T= |Tl1,T2} ,其 中 Tl = {focusl ,1ET1 ,ET21 1,T2 = 


$a 


ifocus2 ,| ETI ,ET2 ,ET31 1 ,这 代表 两 种 角度 下 的 两 种 


focusl | eidl 1 eid2 1 eid3 | | sw | Tl 


视频 时 间 序 列 


图 3 多 角度 下 的 多 种 事件 粒度 划分 方式 


粒度 划分 方式 。 图 中 角度 为 focusl 时 的 ET1 = { etl ， 
et2 ,et31 ,表示 事件 Eidl 与 其 子 事件 的 组 合 关 联 ,体现 
了 事件 的 组 合 关联 和 时 间 区 间 划 分 的 对 应 ,说 明了 实 
现 该 过 程 的 可 行 性 。 

在 本 文 的 视频 语义 表示 方法 中 ,视频 语义 的 表示 
以 底层 的 语义 对 象 及 其 时 空 关联 为 基础 ,语义 对 象 进 
一 步 实例 化 为 具体 事件 中 的 角色 ,从 而 可 复 用 地 参与 
到 多 个 具体 事件 的 语义 表示 中 。 视 频 中 的 事件 语义 可 
以 基于 不 同 关注 角度 生成 ,在 多 个 角度 中 形成 多 种 粒 
度 划分 ,事件 的 语义 可 以 灵活 地 拓展 和 变化 ,事件 涉及 
的 角色 及 角色 间 的 语义 关联 也 随 之 变化 ,而 框架 底层 
的 语义 对 象 保持 不 变 ,只 是 基于 不 同 的 事件 语义 产生 
不 同 的 实例 化 过 程 。 实 例 化 的 角色 是 变化 的 高 层 事 件 
语义 和 不 变 的 底层 语义 对 象 之 间 相 互联 系 的 桥梁 ,这 
就 是 面向 事件 的 视频 语义 表示 方法 的 语义 表示 过 程 。 
下 文 将 介绍 本 文 方法 的 一 些 相关 细节 ,并 论述 该 方法 
是 如 何 解决 上 一 节 所 提 到 的 视频 语义 表示 中 的 关键 问 
题 的 。 
4.2 关键 问题 的 解决 

为 支持 自 底 向 上 的 描述 过 程 ,本 文 定义 的 语义 对 
象 为 使 用 当前 的 识别 技术 分 析 可 得 到 的 具有 初级 语义 
的 语义 对 象 ,其 属性 都 是 与 事件 无 关 的 。 在 对 象 间 的 
关联 方面 则 着 重 刻画 与 事件 无 关 的 时 空 关 联 。 底 层 语 
义 对 象 向 上 实例 化 为 事件 相关 的 角色 ,角色 之 间 以 底 
层 语 义 对 象 的 时 空 关 联 为 基础 ,在 事件 中 形成 高 层 的 
语义 关联 ,事件 之 间 通 过 语义 粒度 的 聚合 再 向 上 形成 
更 高 级 的 事件 语义 。 这 里 举例 说 明 语 义 对 象 的 时 空 关 
联 向 上 形成 角色 的 语义 关联 的 细节 ,如 图 4 所 示 ,两 个 
底层 的 语义 对 象 间 的 “时 空位 置 接近 (approach)” 的 时 
空 关联 ,在 具体 的 “ 抓 捕 ” 事 件 下 ,演变 为 “警察 "“ 罪 
犯 这 两 个 角色 间 的 “追逐 (chase) "的 语义 关联 。 

在 对 视频 事件 的 多 角度 解读 的 支持 上 ,不 同 于 过 
往 研 究 中 只 支持 先 验 的 、 单 一 角度 的 事件 语义 表示 ,本 


图 襄 情 荫 三 作 


第 64 卷 第 10 期 2020 年 5 月 


ChinaXiv 合 作 期 二 


| 


图 4 ”对象 时 空 关联 和 角色 语义 关联 


文 的 方法 允许 可 扩展 的 .多 个 角度 的 事件 语义 表示 。 
事件 可 通过 上 文中 定义 的 “关注 角度 ”( focus) 属性 进 
行 角度 区 分 ,事件 语义 可 从 不 同 角度 解读 ,每 个 角度 下 
可 写生 不 同 的 事件 粒度 划分 方式 。 过 往 的 研究 方法 一 
稻 史 能 刻画 单一 角度 下 的 事件 语义 汇集 的 树 状 事件 结 
本 文 的 方法 使 得 最 终 的 事件 语义 可 以 形成 多 角 
度 江 集 的 网 状 事件 结构 。 
@ 在 对 事件 粒度 划分 的 支持 上 ,本 文 设计 了 不 同 层 
so， 
随 事 件 变化 的 设计 在 于 两 个 方面 。 一 是 在 语义 对 
0 
体现 高 层 语义 的 语义 对 象 ,因此 复合 事件 包含 的 对 象 
集 从 是 其 所 有 子 事件 包含 的 对 象 集合 的 子 集 , 比 如 在 
事件 “Pass( 传 球 )”“Shoot( 投 篮 ) "组 成 的 复合 事 
件 fScore( 得 分 )" 中 ,所 有 子 事件 涉及 的 语义 对 象 共有 
4 恩 复 合 事件 只 涉及 其 中 2 个 ( 见 表 1) ;二 是 同一 语 
义 晴 和 象 在 不 同 层次 的 事件 中 使 用 不 同 的 实例 化 角色 ， 
比 嫩 语义 对 象 "Playerl ”在 子 事件 “ 传 球 " 和 复合 事件 
“得 分 ”中 分 别 实例 化 为 “ 传 球 者 "角色 和 “助攻 者 " 角 
色 ( 见 图 5) 。 
表 1 事件 组 合 过程 中 的 语义 对 象 变化 
语义 对 象 信息 
涉及 的 语义 对 象 


Pass ，Shoot Score 


Playerl ，Player2 ，Player3 ，Ba Playerl ,Player2 


在 对 自 项 向 下 的 语义 补 全 的 支持 上 ,本 文 为 语义 
对 象 . 角 色 .事件 定义 了 可 扩展 的 属性 键 值 对 ,可 根据 
需要 增加 个 性 化 的 语义 信息 ,能 够 满足 自 项 向 下 的 语 
义 补 全 的 需求 。 并 且 由 于 存在 角色 作为 语义 对 象 和 事 
件 的 中 间 层 ,在 对 具体 事件 中 的 角色 进行 事件 相关 的 
语义 补 全 时 ,也 不 会 改变 对 象 本 里 的 基础 语义 。 

在 对 可 扩展 性 和 检索 需求 的 支持 上 ,首先 ,对 可 扩 
展 性 的 支持 体现 在 方法 设计 的 各 个 方面 ,属性 键 值 对 
的 扩展 、 对象 的 实例 化 过 程 .事件 的 多 角度 生成 方式 分 


sser 
(Playerl) 


本 Basketball 
Assist—Maker ass (Ball) 
(Playerl) 


Receiver 
(Player2) 


(Player2) 


(B) “A” isRole, “B” is Object 
图 5 对 象 以 不 同 角色 参与 多 层次 的 事件 


别 支 持 了 属性 级 对象 级 .事件 级 的 语义 拓展 。 在 检索 
能 力 方面 ,本 文 的 表示 方法 除了 可 以 支持 语义 丰富 的 
图 数据 检索 方式 ,还 可 以 方便 地 基于 语义 对 象 或 基于 
事件 关注 角度 进行 检索 ;可 以 通过 实例 化 关系 检索 到 
对 象 实例 化 生成 的 所 有 角色 。 

4.3 ”方法 应 用 实例 

为 体现 面向 事件 的 视频 语义 表示 方法 的 应 用 效 
果 , 本 文选 取 了 一 段 篮球 比赛 视频 的 片段 进行 语义 表 
示 。 

本 文 截取 的 视频 片段 来 自 于 CBA 的 北京 农 商 银 
行 队 (下 称 “A 队 ”) 和 四 川 品 胜 队 (下 称 *B 队 ”) 的 一 
场 比赛 视频 。 本 文 截取 的 视频 片段 的 连续 关键 帧 如 图 
6 图 7 所 示 , 其 基本 的 场景 信息 为 :在 比赛 即将 结 
时 ,A 队 的 球员 “运动 员 A3” 传 球 给 “运动 员 Al”,“ 运 
动员 Al1” 投 篮 命 中 ,在 比赛 结束 前 将 两 队 比分 逆转 。 


入 一 贡品 用 加 
二 | RS 一 一 An 08.9 
北京 农 商 银行 区 7 于 | 


图 6 视频 关键 帧 一 
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g 
Q (HR 2015 年 1154 


全 明星 周末 这 
2 


i 


使 用 本 文 的 方法 对 这 段 视频 的 语义 进行 表示 ,如 
图 8 所 示 , 图 中 表示 了 这 段 视频 的 3 个 角度 的 事件 语 
义 ,这 3 个 角度 分 别 以 “ 持 球 人 ”“ 运 动员 A2”“ 比 分” 
为 关注 点 。 为 方便 展示 ,图 中 简化 了 主体 属性 的 表示 ， 
将 语义 对 象 的 名 称 .角色 的 语义 标签 .事件 的 名 称 和 关 
注 点 属性 直接 展示 在 对 应 的 矩形 框 中 ,其 他 属性 未 全 
部 展示 。 图 中 未 表示 出 所 有 的 对 象 间 、 角 色 间 关联 , 主 
要 通过 对 象 “ 运 动员 Al” 和 “运动 员 Bl1” 及 其 对 应 的 
角色 “投篮 者 ”和 “防守 者 ”的 关联 体现 了 对 象 的 时 
空 关 联 到 角色 的 语义 关联 的 演化 ,图 中 两 个 语义 对 象 
间 的 时 空 关联 “时 空位 置 接近 "在 角色 间 演 化 为 语义 
关联 “拦截 ”。 

在 以 “ 持 球 者 ”为 关注 点 的 语义 表示 中 ,对 象 “ 运 


一 动员 Al “和 运动员 A3” 和 “ 球 ” 分 别 实例 化 为 “ 接 球 
> 
CO 
~ - 
Ka, 
3 
区 composeof. composeof- 
CO Event: 传 球 Event: 投篮 
CN Focus: 持 球 人 Focus: 持 球 人 
© 
GN | 
Ea 
> vy 
ss Role: 
>< 传 球 者 
2 
人 
SC 
EE Object 
we ”| 运动 员 A3 
© 
Object: Object: 由 
运动 员 A2 运动 员 B2 
和 a a 
Role: Role 
胜 队 负 队 
不 不 
Lai hiag— 


Event: 绝 杀 
Focus: 比分 


8 篮球 视频 片段 的 语义 表示 


者 “ 传 球 者 "和 ”篮球 ”, 成 为 参与 " 传 球 " 事 件 的 角色 。 
对 象 “ 运 动员 A1 “运动 员 B1” 和 ” 球 ” 分 别 实 例 化 为 
“投篮 者 “防守 者 "和 “篮球 ” ,成 为 参与 "投篮 "事件 
的 角色 。 由 于 投篮 命中 ,连续 的 “ 传 球 事件 ”和 "投篮 
事件 "组 合成 具有 更 大 粒度 的 “得 分 事件。 在 “得 分 ” 


4 


了 件 中 ,其 子 事件 涉及 的 语义 对 象 只 有 “运动 员 A2” 
和 “运动 员 A1” 与 该 层 语义 具有 强 相 关 性 ,所 以 “得 
分 " 件 的 语义 表示 只 涉及 了 这 两 个 对 象 ,它们 分 别 实例 
化 为 新 的 角色 “助攻 手 " 和 “得 分 手 ” ,后 者 在 图 中 还 展 
示 了 可 扩展 添加 的 属性 键 “ 得 分 方式 ”及 其 属性 值 “ 投 
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以 “运动 员 A2” 为 关注 点 和 以 “比分 "为 关注 点 的 
事件 语义 的 表示 与 上 述 过 程 类 似 ,图 中 分 别 表示 了 以 
“运动 员 A2” 为 关注 点 的 “ 卡 位 "事件 和 以 “比分 "为 关 
注 点 的 “ 绝 杀 "事件 。 其 中 “ 绝 杀 "* 事 件 在 篮球 运动 中 
是 指 在 比赛 将 要 结束 前 逆转 比分 并 决定 比赛 胜 负 的 比 
分 事件 ,图 中 表示 的 参与 绝 杀 事件 的 角色 “ 胜 队 ” 和 
“ 负 队 ”都 是 由 多 个 语义 对 象 以 多 对 一 的 方式 实例 化 
得 到 的 ,这 是 本 文 的 方法 所 支持 的 实例 化 机 制 。 

以 上 3 个 角度 的 语义 表示 只 用 作 本 文 的 实例 说 
明 ,在 实际 应 用 中 ,面向 事件 的 视频 语义 表示 方法 支持 
扩展 更 多 不 同 角度 的 事件 语义 表示 。 
4.4_ 相关 方法 比较 与 创新 性 说 明 
全 为 了 更 好 地 理解 各 种 视频 语义 表示 方法 的 差异 ， 
并 更 直观 地 体现 本 文 方法 的 优势 ,本 节 将 本 文 方法 与 
其 他 研究 进行 了 比较 ,并 对 本 文 方法 的 创新 性 进行 了 


的 事件 语义 表示 角度 和 粒度 划分 方式 单一 缺少 
的 对 象 语义 变化 机 制 的 问题 ,因此 在 本 节 的 比较 
要 考察 与 之 相关 的 以 下 4 个 需求 :区 分 对 象 和 角 
> 介 许 事件 组 合 支持 多 角度 事件 语义 表示 、 具 有 对 
象 请 义 变化 机 制 。 比 较 结果 如 表 2 所 示 , 其 中 “V”" 代 
表 邢 法 能 直接 满足 该 需求 或 能 够 以 类 似 的 方式 间接 满 
足 镑 需求 “x ”代表 方法 不 能 满足 该 需求 或 没有 定义 
相关 的 内 容 。 

表 2 典型 的 视频 语义 表示 方法 比较 


区 分 对 象 “ 允 许 事件 交 竺 多 角 具有 对 象 


方法 度 事件 语 “ 语 义 恋 
和 角色 组合。 
AVISTII71 V x x x 
VIDEXLI18] V x x 
THVDML20] V V x x 
基于 图 模型 的 足球 视频 x x x x 
语义 建 模 方法 [31 
多 层次 地 理 视频 语义 模型 [1161 V V x x 
视频 分 层 语义 联想 模型 [19] x V x x 
面向 事件 的 视频 语义 表示 方法 V V V V 


在 上 述 表格 的 几 项 指标 中 ,本 文 提 出 面向 事件 的 
视频 语义 表示 方法 的 效果 最 好 。 一 方面 是 因为 上 述 的 
一 些 方法 在 提出 时 还 没有 太 多 可 以 参考 的 相关 工作 ， 


事件 语义 的 复杂 性 还 没有 被 关注 ,它们 主要 是 在 探索 
视频 语义 表示 方法 时 厘清 了 事件 相关 的 基本 概念 ,为 
后 来 的 研究 提供 了 基础 ; 男 一 方面 ,本 文 在 前 人 的 研究 
基础 上 聚焦 于 事件 语义 的 多 角度 表示 等 面向 事件 复杂 
性 的 方面 ,对 复杂 事件 语义 表示 中 涉及 的 对 象 和 角色 
的 区 分 事件 组 合 和 粒度 划分 ,对象 语义 变化 等 方面 进 
行 了 专门 的 考虑 和 设计 。 所 以 本 文 的 方法 在 面向 事件 
的 语义 表示 时 能 够 更 契合 需求 。 

具体 而 言 ,本 文 的 方法 具有 以 下 创新 :中 具有 完整 
的 语义 表示 框架 。 本 方法 对 视频 语义 的 表示 遵循 自 底 
向 上 的 描述 过 程 ,在 表示 框架 中 涵盖 了 不 同 层次 的 语 
义 信 息 ,并 将 它们 合理 地 关联 了 起 来 。 包 能 够 从 多 个 
角度 表示 事件 语义 。 事 件 语义 可 以 根据 不 同 用 户 背景 
和 需求 从 不 同 角度 解读 和 生成 ,并 产生 多 种 事件 粒度 
划分 方式 ,可 以 形成 多 角度 汇集 的 网 状 事件 语义 结构 。 
加 可 以 灵活 地 进行 语义 拓展 。 在 本 方法 中 ,语义 对 象 
和 事件 具有 低 耦 合 关系 ,参与 事件 的 语义 对 象 的 数量 
及 其 实例 化 角色 的 语义 都 有 相应 的 变化 机 制 。 对 象 和 
角色 的 语义 可 随 不 同 角 度 .粒度 的 事件 语义 的 变化 而 
灵活 拓展 。 


5 结论 


本 文 围绕 视频 语义 表示 的 研究 主题 ,提出 了 面向 
有 件 的 视频 语义 表示 方法 ,通过 实例 阐述 了 使 用 其 进 
生 语 义 表示 的 过 程 ,并 与 现 有 相关 研究 进行 了 比较 ,说 
了 本 文 方法 的 创新 之 处 。 本 文 的 方法 解决 了 现 有 事 
件 语义 表示 方法 中 事件 语义 表示 角度 和 粒度 划分 方式 
单一 、 缺 少 灵活 的 对 象 语义 变化 机 制 等 问题 ,并 在 视频 
语义 补 全 和 拓展 方面 提供 了 更 好 的 支持 。 

无 论 是 在 公共 领域 的 品牌 传递 .意识 形态 塑造 
方面 ,还 是 在 个 人 领域 的 知识 学 习 '”! .消费 娱乐 等 
方面 ,视频 都 正在 成 为 日 益 重要 的 媒介 。 在 实践 中 , 面 
向 事件 的 视频 语义 表示 方法 可 以 为 视频 数据 资源 的 组 
织 管理 提供 信息 表示 框架 ,能 够 支持 用 于 满足 用 户 精 
细 化 视频 获取 需求 的 系统 的 设计 ,可 以 为 视频 数据 挖 
气相 关 研 究 提供 良好 的 中 间 数 据 结 构 。 面 向 事件 的 视 
频 语义 表示 方法 可 以 具体 应 用 于 如 下 场景 :电子 图 
书馆 视频 资源 的 组 织 管理 。 视 频 是 当下 读者 获取 信息 
的 重要 媒介 ,基于 良好 的 语义 表示 方法 重新 组 织 视频 
资源 ,可 以 更 好 地 发 挥 图 书馆 视频 资源 的 价值 和 可 用 
性 。@@ 基 于 视频 语义 的 检索 或 推荐 系统 的 设计 。 
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将 视频 语义 表示 方法 应 用 于 系统 设计 ,可 以 为 当前 实 
际 应 用 中 的 精细 化 的 视频 内 容 获取 方案 带 来 新 的 突 


做 。 


(3 支持 视 频数 据 挖 气 研 究 。 结 构 化 表示 的 视频 语 


义 信息 能 够 支持 涉及 视频 主题 等 高 级 语义 相关 的 数据 
挖掘 研 究 ,并 为 其 挖掘 结果 提供 可 解释 性 。 


在 后 续 的 研究 中 ,笔者 将 继续 以 下 几 个 方面 的 工 


作 :中 语义 表示 工作 的 完善 。 本 文 强调 在 多 角度 事件 
语义 表示 下 应 当 具 有 多 种 粒度 划分 方式 ,所 以 在 事件 
间 关 联 方面 重点 关注 了 与 事件 粒度 划分 最 相关 的 组 合 
关联 ,后 续 还 可 在 多 角度 事件 语义 表示 的 基础 上 ,在 时 


序 关联 、 因 果 关 联 等 方面 进一步 完善 。 
型 的 构建 。 笔 者 将 为 本 文 的 视频 语义 表示 方法 建立 通 


@ 语 义 数据 模 


用 的 数据 模型 ,并 拟 将 其 落实 在 基于 图 数据 库 的 数据 
模式 中 。@@ 系 统 设计 和 实现 。 使 用 纯 人 工 标注 的 方法 
鸡 吕 发 挥 模型 的 最 大 价值 ,笔者 拟 在 通用 数据 模型 的 


JE ,设计 视频 语义 分 析 系 统 , 实 现 自动 或 半自动 的 


袖 颈 语义 分 析 及 语义 信息 的 结构 化 表示 和 存储 。 
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Research on Video Semantic Representation for Events 
Li Xuhui Wu Qingfeng 
School of Information Management, Wuhan University, Wuhan 430072 

Abstract: | Purpose/ significance | Video content is affecting the information life of a large number of people in 
China. The proper representation of video semantic is the key foundation for the current development of video content 
research and application. The existing methods of semantic representation of video only support the semantic repre- 
sentation of an event from one single perspective and lack the flexible change mechanism of relevant semantic objects, 
which results in insufficient semantic representation. So it is important to explore more effective video semantic repre- 
sentation methods. | Method/process| This paper proposed a video semantic representation method for events. This 
method considered the bidirectional nature of human cognitive processes and adopted a scalable way to support multi- 
perspective interpretation of event semantic. A change mechanism of number and semantic is designed to support rel- 
evant objects included in events. | Result/conclusion | This method has a complete semantic representation frame- 
work , which can effectively support multi-perspective interpretation of video events. It flexibly supports attribute-lev- 
QD object-level, and event-level semantic extensions. Generally it can represent richer video semantics than existing 
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